数据挖掘常用聚类、分类算法总结

最新推荐文章于 2024-09-13 21:55:38 发布

qdw786921529

最新推荐文章于 2024-09-13 21:55:38 发布

阅读量2.8k

点赞数 1

分类专栏：数据分析文章标签：数据挖掘聚类算法算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qidewang123/article/details/81484081

版权

数据分析专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、KNN算法：K最邻近分类算法

from sklearn.model_selection import train_test_split sklearn中引入训练集测试集分割包

data_train, data_test, target_train, target_test = train_test_split(our_data, our_data_target, test_size=0.3) 将测试集数据集分割得到特征数据的训练集和测试集，目标数据的训练集和测试集 test_size=n n为测试数据占比

from sklearn import neighbors 从sklearn中引入neighbors 类

knnModel = neighbors.KNeighborsClassifier(n_neighbors=n)创建knn模型，参数为数据的分类个数

knnModel.fit(data_train, data_test) 使用训练数据对模型进行训练

knnModel.score(target_train, target_test) 使用目标数据对模型进行评分

我们使用K折交叉验证来得到模型的K折之后的平均分作为模型的最终得分

from sklearn.model_selection import cross_val_score

cross_val_score(knnModel, our_data, our_data_target, cv=n) n为进行几折交叉验证

knnModel.predict(data) 对未知数据进行分类预测

2、贝叶斯算法

GaussianNB 高斯贝叶斯适用于符合正太分布的数据

BernoulliNB 伯努利贝叶斯适用于布尔类型的数据

MultinomialNB 多项式贝叶斯以上两种都不合适的时候使用常用于文本分类

3、决策树

from sklearn.tree import DecisionTreeClassifier 导入决策树

treeModel = DecisionTreeClassifier(max_leaf_nodes=n) 创建决策树模型参数为最大叶子节点个数

from sklearn.model_selection import cross_val_score

cross_val_score(treeModel, our_data, our_data_target, cv=5) 对决策树模型进行交叉验证评分

treeModel.predict(data)进行预测

4、随机森林

包含多个决策树

适合离散型和连续型的属性数据，适合分布式计算

from sklearn.ensemble import RandomForestClassifier 引入随机森林模型

forestModel = DecisionTreeClassifier(max_leaf_nodes=n) 进行参数调整

进行K折交叉验证得到评分

SVM 支持向量机：

from sklearn import svm

svcModel = svm.SVC() 进行K折交叉验证得到评分

svcModel = svm.NuSVC() 进行K折交叉验证得到评分

svcModel = svm.LinearSVC() 进行K折交叉验证得到评分

最终得出评分最高的svm模型即可

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。